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摘 要 : [目的 /意义 ] 要 实现 “一 带 一 路 ”多 语种 共享 型 数据 库 资源 的 有 效 利用 ,必须 解决 跨 语 言 检索 问题 ,基于 已 建 “ 一 
带 一 路 ”数据 库 检 索 功 能 调查 结果 ,分 析 “ 一 带 一 路 ”多 语种 共享 型 数据 库 检索 功能 需求 ,以 调研 跨 语 言 检 索 平 台 
为 视角 ,为 “一 带 一 路 ”多 语种 共享 型 数据 库 的 跨 语 言 检索 功能 设计 与 开发 提供 参考 。|[ 方 法 /过 程 ] 采 用 文献 调研 
法 和 网 络 调研 法 ,选取 11 个 国内 外 典型 的 跨 语言 检索 平台 ,从 跨 语言 检索 方法 、 跨 语言 翻译 实现 方法 检索 功能 


设置 检索 结果 呈现 .界面 与 检索 支持 语种 6 个 方面 进行 分 析 , 总 结 其 实现 方法 。[ 结果 /结论 ] 为 “一 带 一 路 "多 语 


-一 
之 种 共享 型 数据 库 的 跨 语 言 检 索 功能 设计 与 开发 提出 策略 :应 采用 基于 神经 网 络 机 器 翻译 的 提问 式 - 文献 翻译 广 
SS 法 ,实现 多 种 检索 功能 ,应 用 可 视 化 技术 呈现 检索 结果 ,提供 多 语言 检索 界面 和 资源 。 
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II 言 面 ,如 何 实现 “一 带 一 路 ”多 语种 共享 型 数据 库 的 跨 语 
C 言 检索 ,服务 “一 带 一 路 "沿线 国家 多 语言 信息 需求 ， 


CN 自 2013 年 9 月 习 总 书记 提出 “一 带 一 路 "倡议 以 
来 3 址 界 各 国 和 国际 组 织 积极 响应 ,截至 2020 年 1 月 
遍地 有 138 个 国家 和 30 个 国际 组 织 与 中 国 签署 了 
20 了 3% 共 建 和 一 带 一 路 "合作 文件 "”。 多 语种 共享 型 数 
eh 


十 


人 台 & 能 为 建设 "一带 一 路 "多 语言 信息 资源 保障 体系 提 
供 有 效 支 撑 。 近 年 来 ,国内 政府 部 门 、 高 校 科 研 机 构 


是 当前 卫 需 解决 的 重要 课题 。 因 此 ,本 文 在 了 解 已 建 
“一 带 一 路 ”数据库 检 索 功 能 的 基础 上 ,分 析 “ 一 带 一 
路 "多 语种 共享 型 数据 库 检 索 功 能 需求 ,并 对 国内 外 典 
型 的 路 语言 检索 平台 进行 调查 ,分 析 其 功能 设计 与 开 
发 实践 ,从 而 提出 “一 带 一 路 "多 语种 共享 型 数据 库 的 
路 语言 检索 功能 开发 策略 。 


2 相关 研究 


和 企业 已 建立 了 多 个 “一 带 一 路 ”数据库 , 经 笔者 调 
研 , 仅 有 4 个 平台 提供 多 语言 信息 服务 。 跨 语言 检索 
指 可 用 一 种 语言 进行 提问 ,检索 出 另 一 种 或 多 种 语言 
信息 的 信息 检索 技术 ”, 基 于 跨 语 言 检索 的 多 语言 信 
息 服务 帮助 用 户 使 用 自己 熟悉 的 语言 文字 , 了解、 浏览 
或 者 阅读 其 他 语种 信息 资源 的 内 容 , 能 扩大 不 同 语种 
信息 资源 共享 范围 ”。 当 前 “一 带 一 路 ”数据库 尚未 
真正 实现 路 语言 检索 ,无 法 满足 不 同 母语 背景 的 用 户 
对 多 语言 信息 资源 的 检索 需求 。 在 多 语言 信息 服务 方 


如 何 实现 "一 带 一 路 多 语种 共享 型 数据 库 的 跨 
语言 检索 功能 ,解决 该 数据 库 的 多 语种 问题 是 本 文 的 
研究 目标 。 因 此 ,从 跨 语 言 检索 翻译 方法 及 其 实现 与 
“一 带 一 路 ”数据库 的 多 语种 问题 两 个 方面 对 相关 研 
究 进行 梳理 。 

2.1 跨 语言 检索 翻译 方法 及 其 实现 
2.1.1 跨 语言 检索 翻译 方法 
跨 语 言 检 索 翻 译 方法 有 提问 式 翻 译 方法 、 文 献 翻 
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译 方法 ,提问 式 - 文献 翻译 方法 ,中间 语言 翻译 方法 、 
非 翻译 方法 ,其 中 提问 式 翻译 方法 .文献 翻译 方法 、 提 
问 式 - 文献 翻译 方法 是 目前 主流 翻译 方法 “5 。 

提问 式 翻译 方法 是 将 提问 式 语种 转换 成 文献 目标 
语种 ,然后 再 进行 单 语言 检索 ;文献 翻译 方法 是 将 源 广 
献 语种 转换 成 提问 式 语种 , 即 不 对 提问 式 进行 翻译 ,而 
是 将 集合 中 的 文献 翻译 成 与 提问 式 语种 一 致 的 语 
言 只 。 提 问 式 -文献 翻译 方法 综合 两 者 优点 ,减少 用 
户 翻译 成 本 的 同时 提高 检索 服务 的 质量 ,是 目前 实现 
跨 语言 检索 比较 理想 的 选择 。 
2.1.2， 跨 语 言 翻 译 实现 方法 

跨 语言 翻译 的 实现 方法 有 基于 机 器 翻译 的 方法 、 
基于 语料库 的 方法 ,基于 字典 /词典 的 方法 ,字典 /词典 
与 滞 料 库 混合 方法 .基于 本 体 的 方法 ”。 
三 基于 机 器 翻译 的 方法 是 使 用 机 器 翻 译 系统 进行 番 
译 的 方法 。P. Iswarya 和 V. Radha 使 用 基于 规则 和 统 
读 的 混合 机 器 翻译 系统 ,开发 了 跨 语言 文本 检索 系统 ， 
提高 了 翻译 准确 率 和 工作 效率 ”。 基 于 语料库 的 方法 
是 净 同 一 信息 或 同一 主题 的 信息 用 两 种 或 多 种 语言 进 
入 可 述 ， 并 由 人 工 或 计算 机 建立 不 同 语种 间 信息 联系 
:入 的 方法 " 。R，Rabimi 等 使 用 基于 概率 分 布 的 模 
型 强 取 源 语言 与 目标 词 的 对 应 关系 ,在 可 比 语 料 库 中 
椅 鹿 翻译 模型 ,为 低频 单词 提供 了 更 可 靠 的 翻译 5 。 
基 字 字典 /词典 的 方法 利用 机 读 字典 /词典 ,将 用 户 提 
稚 隐 检索 式 翻译 成 目标 语种 进行 检索 。0. FP， W. 
OqiBde 等 提出 了 一 种 具有 双重 概念 驱动 的 文档 聚 类 
技术 的 模糊 双语 词典 ,来 扩展 词典 翻译 模型 。 字 
版 C 讽 典 与 语料库 混合 方法 结合 上 述 两 者 优点 ,首先 使 
用 字典 /词典 对 提问 式 进行 翻译 ,然后 使 用 专业 语料库 
净化 模糊 不 清 的 结果 。J，Vilares 等 基于 提问 式 翻译 
方法 ,使 用 并 行 语料库 自动 生成 的 双语 机 器 可 读 N- 
gram 字典 进行 翻译 ,然后 执行 单 语文 本 检索 "9 。 基 于 
本 体 的 方法 指 在 语义 层面 翻译 提问 式 ,对 检索 对 象 进 
行 语义 处 理 ,分 析 该 语义 段落 中 的 潜在 目标 对 象 和 查 
询 请 求 的 语义 相关 性 ,最 后 进行 匹配 55) 。 孙 表 莹 等 提 
出 了 一 种 基于 领域 知识 库 的 科技 术语 信息 匹配 模型 ， 
并 结合 语言 学 特征 、 领 域 信 息 以 及 长 短 时 记忆 网 络 语 
言 模型 来 挑选 最 合适 译文 5 。 
2.2 “一 带 一 路 ”数据 库 的 多 语种 问题 

“一 带 一 路 "数据 库 的 多 语种 问题 给 信息 资源 建 
设 和 数据 库 检索 服务 提出 了 新 的 挑战 。 于 施 洋 等 认为 
在 数据 采集 和 处 理 过 程 中 ,多 语种 问题 是 “一 带 一 路 ” 
数据 归 集 与 普通 数据 库 建设 的 最 大 差别 之 处 "1。 已 


> 


建 “一 带 一 路 "数据 库 普遍 缺乏 小 语种 信息 资源 ,尚未 
实现 多 语种 资源 的 组 织 和 整合 ” ,无 法 为 跨 语言 检索 
功能 提供 资源 保障 ,进而 影响 一 带 一 路 沿线 国家 间 的 
言 息 资源 共享 。 严 丹 等 提出 应 关注 和 引进 多 语种 资 
源 ,特别 是 中 小 国家 语种 原版 资料 ,构建 多 语种 、 蜂 学 
科 、 多 来 源 的 “一 带 一 路 "信息 资源 体系 ””。 梁 吴 光 
等 认为 加 快 建设 基于 多 语种 识别 、 多 语言 感知 等 语言 
技术 的 “一 禹 一 路 ”多 语言 云 服务 平台 ,提供 基础 数据 
资源 和 技术 支撑 ” ,是 “一 带 一 路 "数据 库 建设 和 开发 
的 重要 环节 。 但 从 理论 和 实践 的 角度 来 说 , 跨 语言 检 
索 功 能 分 析 和 开发 仍 是 “一带 一 路 ”数据库 建 设 的 空 
白 环 节 。 


3 “一 带 一 路 ”多 语种 共享 型 数据 库 检索 
功能 需求 分 析 


资源 特点 与 用 户 需 求 
在 资源 特点 方面 “一 带 一 路 ”多 语种 共享 型 数据 
库 涉及 多 语种 、 多 类 型 .多 领域 .多 来 源 的 信息 资源 。 
言 息 资源 语种 多 样 , 且 部 分 语种 较为 小 众 , 普 及 率 较 
低 , 如 柬埔寨 语 ` 匈 牙 利 语 .老挝 语 波兰 语 、 塞 尔 维 亚 
语 ,越南 语 等 ;信息 资源 类 型 涵盖 政策 法 规 、 统 计数 据 、 
首 数 数据 .研究 与 科技 报告 .新 闻 资 讯 .期 刊 与 报纸 ,学 
位 论文 著作、 年 鉴 、 经 济 管理 重要 工具 书 专利 文献 、 
标准 等 ;一 带 一 路 "专题 信息 资源 涉及 政治 、 经 济 文 
化 法律 国家 安全 等 多 个 研究 领域 ;信息 资源 来 源 包 
括 各 国政 府 机 构 \、 国 际 组 织 、 科 研 院 校 ,企业 、 数 据 库 、 
权威 媒体 、 权 威 智库 和 互联 网 等 。 

在 用 户 需 求 方面 “一带 一 路 ”相关 研究 的 信息 资 
源 需 求 主要 集中 于 “一 带 一 路 ”沿线 国家 和 地 区 宏观 
信息 需求 .各 国 媒体 发 布 的 新 闻 报道 和 舆情 信息 需求 、 
各 国 专业 性 领域 的 多 语种 信息 需求 以 及 对 多 语种 .路 
学 科 的 学 术 资 源 和 科研 信息 的 需求 ”。 可 见 , “一带 
一 路 "多 语种 共享 型 数据 库 需 重点 针对 文献 语种 .文献 
类 型 .研究 领域 和 文献 来 源 等 不 同 维度 整合 原始 信息 
资源 。“ 一 带 一 路 ”沿线 涉及 138 个 国家 和 地 区 ,涵盖 
百 余 种 语种 ,数据 库 用 户 目 前 只 能 依赖 自身 多 语言 信 
息 识 读 和 理解 能 力 ,或 借助 外 部 翻译 工具 来 获取 小 语 
种 的 原始 信息 资源 。 为 帮助 “一 带 一 路 ”多 语种 共享 
型 数据 库 用 户 理 解 与 获取 多 语种 信息 资源 ,应 配置 符 
合用 户 检 索 需 求 的 跨 语言 检索 功能 。 
3.2 数据库 检 索 功能 调查 
为 了 解 “一 带 一 路 "多 语种 共享 型 数据 库 用 户 的 


3.1 


21 


图 天 情报 三 作 


第 65 卷 第 3 期 2021 年 2 月 


ChinaXiv 合 作 期 刊 


检索 功能 需求 ,对 已 有 “一 带 一 路 "数据库 检索 功能 进 
行 调查 ,调查 对 象 具 体 见 专题 文章 4“ 一 带 一 路 ”专题 
数据 库 建设 调查 与 发 展 分 析 》 表 1 部 分 ,调查 结果 如 
下 : 
3.2.1 尚未 实现 跨 语言 信息 检索 

目前 ,尚未 发 现 有 “一 带 一 路 ”数据 库 提供 基于 跨 
语言 检索 的 多 语言 信息 服务 ,已 建 “一 带 一 路 ”数据库 
中 , 仅 有 丝 路 科技 知识 服务 系统 能 够 实现 部 分 元 数据 
层面 的 跨 语言 检索 ,其 文献 资源 的 题名 、 关 键 词 和 摘要 
通常 包含 英语 或 中 身 双 语 的 翻译 版 本 ,如 “题名 ”和 
“Alternate Title”““ 英语 摘要 ”和 “Abstract from Author” 


和 理解 其 他 语种 的 用 户 易 产 生 认 知 障碍 。 其 中 ,60% 
的 "一 带 一 路 "数据 库 仅 文 持 中 文 ;9% 的 数据 库 仅 支 
持 英 语 ;19% 的 数据 库 同时 支持 中 文 与 英语 ; 除 此 之 
外 ,有 4 个 数据 库 支 持 包括 中 英 在 内 的 3 种 及 以 上 语 
种 , 占 比 12% ,其 中 美国 EBSCO 公司 的 数据 库 支 持 英 
语 日 语 、 韩 语 、 德 语 等 30 种 语言 界面 ,“ 中 国 一 带 一 路 
网 "支持 中 文英 语 、 俄 语 法语 西班牙 语 、 阿拉伯 语 6 
种 联合 国 官 方 语言 界面 ， 丝 路 科技 知识 服务 系统 " 文 
持 中 文英 语 .俄语 西班牙 语 4 种 语言 界面 ,新华 丝 
路 网 ”支持 中 文 .英语 、 意 大 利 语 3 种 语言 界面 。 大 多 
数据 库 涵 盖 语 种 偏 少 ,缺乏 多 语言 界面 ,不 利于 用 户 以 


分 别 用 英语 和 源 语言 说 明 。 当 用 户 提交 不 同 源 语言 的 
检索 式 时 ,系统 通过 提问 式 翻译 方法 ,将 检索 式 机 器 翻 
译 结果 与 资源 元 数据 进行 匹配 ,但 无 法 满足 不 同 母语 
背后 的 用 户 对 多 语言 信息 资源 全 文 的 检索 需求 。 信 息 
检 坪 中 的 语言 障碍 导致 “一 带 一 路 "多 语种 资源 难以 
被 发 现 和 利用 。 

3@3> 大 多 仅 支持 简单 检索 功能 

< 大 多 “一 带 一 路 "数据 库 仅 支持 简单 检索 , 仅 有 
区 的 数据 库 支 持 高 级 检索 , 目前 没有 “一 带 一 路 " 数 
5 支持 专家 检索 ,可 用 的 运算 符 和 可 检 字 段 较 少 ,无 
涛 油 足 专业 领域 科研 人 员 的 检索 需求 。 针 对 检索 结 


熟悉 的 语言 文字 为 工具 , 了解. 浏览 或 者 阅读 其 他 语种 
言 息 资 源 的 内 容 , 阻 得 了 不 同 语种 信息 资源 的 传播 与 
利用 ” 。 

基于 此 ， 一 带 一 路 "多 语种 共享 型 数据 库 需 实现 
跨 语言 信息 检索 ,设置 简单 检索 、 高 级 检索 和 专家 检索 
功能 ,支持 检索 结果 排序 分 类 限定 和 可 视 化 ,支持 多 
语言 界面 等 。 其 中 ,基于 跨 语言 检索 的 多 语言 信息 服 
务 是 “一 带 一 路 ”数据库 信 息 服务 的 关键 环节 ,也 是 
“一 带 一 路 "数据库 检 索 功 能 建设 的 难点 ,目前 已 建 
“一 带 一 路 ”数据库 尚 未 有 可 借鉴 的 成 熟 经 验 。 因 此 ， 
需要 吸取 国内 外 跨 语言 检索 平台 的 建设 经 验 ,建设 和 


陋 写 功能 ,52% 的 “一 带 一 路 ”数据 库 支持 从 文献 类 


完善 “一 带 一 路 "多 语种 共享 型 数据 库 的 跨 语 言 检 索 


型 你 献 主题 . 国 别 . 发 表 年 份 等 维度 对 检索 结果 进行 
精 吧 ,1295 的 数据 库 支持 二 次 检索 功能 。 可 见 ,“ 一 带 
一 由 "数据 库 在 专家 检索 功能 ,检索 结果 限定 功能 二 
次 答 索 功 能 上 仍 有 待 改 善 。 
3 交 》 检索 结果 呈现 形式 单一 

检索 结果 的 排序 和 可 视 化 有 利于 用 户 快速 掌握 检 
出 资源 的 概况 和 特征 ,准确 定位 自己 所 需 的 资源 。 仅 
有 24% 的 “一 带 一 路 "数据 库 支持 检索 结果 排序 ,这 些 
数据 库 均 可 根据 发 表 时 间 进 行 排序 ,此 外 ,“ 中 国 一 带 
一 路 网 “列国 志 数 据 库 “ 一 带 一 路 资源 中 心 数据 库 ” 
还 可 根据 相关 性 进行 排序 。 在 检索 结果 可 视 化 方面 ， 
“一 带 一 路 统计 数据 库 ” 具 备 大 量 业 务 数据 和 统计 数 
据 ,用 户 可 将 检索 结果 可 视 化 ,定制 统计 图 ,而 其 他 数 
据 库 无 法 对 检索 结果 进行 可 视 化 。 目 前 “一 带 一 路 ” 
数据 库 的 检索 结果 呈现 形式 较为 单一 ,会 降低 检索 效 
率 和 用 户 体验 。 
3.2.4 ”大 多 不 支持 多 语言 界面 

“一 带 一 路 "数据 库 的 用 户 母语 背景 多 样 , 超 过 单 
一 语言 或 主流 语言 社 群 信息 服务 的 范畴 ,而 目前 大 多 
“一 带 一 路 "数据 库 不 支持 多 语言 界面 ,使 得 不 能 识 读 


功能 。 
4 跨 语言 检索 平台 的 调查 分 析 


4.1 调查 对 象 的 选取 

目前 已 有 的 国内 外 跨 语言 检索 平台 建设 完善 ,可 
为 “一 带 一 路 "数据库 的 跨 语言 检索 功能 开发 提供 参 
考 。 笔 者 参考 李 月 婷 和 司 莉 提出 的 多 语言 信息 组 织 模 
式 ” ,使 用 网 络 调研 法 和 文献 调研 法 选取 了 11 个 跨 
语言 检索 平台 作为 调查 对 象 , 包 括 3 个 跨 语言 数据 库 、 
3 个 学 科 信息 门户 、2 个 搜索 引擎 和 3 个 数字 图 书馆 项 
目 , 具 体 如 下 : 

(1) 跨 语言 数据 库 。OECD iLibrary 是 以 经 济 合 
发 展 组 织 提供 的 信息 资源 为 基础 建立 的 数据 库 。IMF 
eLibrary 是 经 济 数 据 和 分 析 报 告 数据 库 。AIpatent 是 南 
京 深 思 得 信息 科技 有 限 责 任 公司 开发 的 专利 情报 检索 
系统 。 

(2) 学 科 信 息 门 户 。WorldWideScience 是 一 个 跨 
语言 . 跨 库 科技 文献 检索 平台 ,其 资源 涵盖 70 多 个 国 
家 和 地 区 , 约 100 个 数据 库 和 门户 网 站 ,5 亿 多 个 网 页 
的 科学 信息 。 丝 路 科技 知识 服务 系统 由 西安 交通 大 学 
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司 莉 , 周 更 .“ 一 带 一 路 ”多 语种 共享 型 数据 库 的 跨 语 言 检 索 功 
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ME 
能 分 析 与 开发 策略 [J]. 图 书 情 托 Dai 合 估 期 乔 


国际 工程 科技 知识 中 心 研发 ,是 面向 "一 带 一 路 "沿线 
需求 的 工程 科技 知识 服务 平台 。 石 油 石化 大 数据 知识 
服务 平台 是 基于 我 国 石油 石化 行业 建设 的 个 性 化 知识 
服务 体系 。 

(3 ) 搜 索引 擎 。21lingual Google Search 允许 用 户 使 
用 两 种 语言 进行 Google 搜索 , 即 输入 检索 式 后 ,可 选择 
任意 两 种 语言 获取 搜索 结果 。 搜 狗 海 外 搜索 应 用 了 搜 
狗 机 器 翻译 系统 ,可 为 用 户 提 供 糯 语 原文 .中文 译 文 、 
中 英 双 语 3 个 版 本 的 搜索 结 

(4) 数 字 图 书馆 项 目 。 世 界 数字 图 书馆 ( World 
Digital Library, WDL) 是 由 美国 国会 图 书馆 、 联 合 国 教 
科 文 组 织 等 发 起 的 人 类 历史 文化 遗产 数字 图 书馆 项 
目 。 国际 儿童 数字 图 书馆 (International Children”s 
表 1 


1 


Digital Library ,ICDL) 由 美国 国家 科学 基金 赞助 ,是 马 
里 兰 大 学 和 互联 网 档案 馆 合 作 研 发 的 儿童 数字 图 书馆 
项 目 , 收 录 了 反映 不 同时 期 \ 地 域 . 文 化 和 语言 版 本 的 
数字 化 文学 作品 。 欧 洲 数字 图 书馆 (Europeana) 是 受 
欧盟 委员 会 委托 ,由 欧洲 基金 会 主办 的 欧洲 数字 文化 
遗产 项 目 ,该 项 目 涵盖 了 1 500 多 个 博物 馆 、 档 案 馆 和 
图 书馆 的 馆藏 资源 ,提供 5 300 万 数字 对 象 访问 权限 。 
4.2 ” 跨 语 言 检索 平台 调查 结果 

跨 语 言 检索 平台 所 要 实现 的 核心 步骤 是 翻译 和 检 
索 。 笔 者 从 路 语言 检索 方法 、 跨 语言 翻译 实现 方法 、 检 
索 功 能 设置 检索 结果 呈现 .界面 文 持 语种 、 检 索 支 持 
语种 6 个 维度 对 各 跨 语 言 检 索 平台 进行 调查 ,调查 结 
果 如 表 1 所 示 : 


国内 外 跨 语言 检索 平台 调查 结果 


跨 跨 语 言 翻译 界面 支持 语种 


语言 下 
时 型 平台 名 称 今 索 功能 设置 仿 索 结果 呈现 恰 索 支持 语种 (数量 
EE 各 和 名称。 各 汪汪。 避 现 法 。 检索 功能 设置 8 索 结 果 显现 检索 支持 语种 (数量 
全 OECD Li 文献 翻译 “机 器 翻译 《简单 检索 高 级 ”检索 结果 排序 .调整 检索 范围 , 资 ”英语 ,法 语 .日 语 ” 同 左 
仿 握 库 。 brary [2 方法 检索 源 格式 选择 .引文 导出 、 分 享 至 社 (3 种 ) 
S 交 平台 与 邮件 .保存 检索 式 .查看 
检索 历史 ,获取 权限 显示 
ST jyp eu 文献 翻 “机 器 翻译 简单 检索 .高 级 ”检索 结果 排序 .调整 检索 范围 .二 英语、 西 五 牙 语 ”英语 .法 语 .西班牙 语 (3 
> 译 方法 检索 次 检索 ,分享 至 社交 平台 与 邮件 (2 种 ) 种 ) 
Q Alpatent[ ”1 提问 式 神经 网 络 “简单 检索 .高 级 ”调整 检索 范围 二 次 检索 中 文 .英语 .日语 ” 同 左 
翻译 方法 “机 器 翻译 “检索 、 概 念 检 (3 种) 
OO 索 .自助 检索 
Me vom 提问 式 。 机 器 翻译 ”简单 检索 .高 级 ”检索 结果 排序 .调整 检索 范围 可 英语 (1 种 ) 中 文 .英语 .俄语 .法 语 、 西 
塌 河 户 。 Science[25] 。 翻译 方法 检索 视 化 .创建 跟踪 ,分享 至 邮件 .加 入 班 牙 请. 阿拉 伯 语 .德语 .日 
又 “我 的 图 书馆 " 语 韩语 \ 葡 萄 牙 语 (10 种 ) 
(CG 。 纪 下 科技 知识 文献 一 机 六 表 主 “ 简 单 检 索 高级。 检索 结果 排序 .调整 检索 范围. 引 。 中文 .英语 .公庄 、 “中文 英语、 全 语法 语 、 机 
己 。 服务 系统 7 译 廊 法 检索 文 导出 .加 入 收藏 阿拉 伯 语 (4 种 ) 。 班 牙 请 .阿拉 伯 语 (6 种 ) 
己 。 石油 石化 大 数 。 文献 翻 ”机 器 翻译 、 简 单 检索 .高 级 ”检索 结果 排序 .调整 检索 范围 二 中文 (1 种 ) 中 文英 语 
CC) 据 知识 服务 平 。 译 方法 “人 工 翻译 “检索 、 分 类 检 ”次 检索 .引文 导出 .可视化 ,查看 检 
各] 索 .专家 检索 索 历史 
搜索 ”2lingual Google 。 提问 式 机 器 翻译 简单 队 索 双语 检索 结果 分 列 显示 英语 (1 种 ) 中 文 .英语 .俄语 .法 语 、 西 
引 获 search[ 3] 翻译 方法 班 牙 语 、 阿 拉 伯 语 、 保 加 利 
亚 语 、 加 泰 罗 尼 亚 语 等 (37 
种 ) 
搜狗 海外 搜 提问 式 神经 网 络 简单 检索 选择 显示 原文 .译文 ,双语 ,相关 检 。 中文 (1 种 ) 中 文英 语 (2 种 ) 
索 [30 翻译 方法 “机 器 翻译 索 推 荐 
数字 WDL[31] 文献 翻 。 机 器 翻译 ”简单 检索 调整 检索 范围 .选择 结果 显示 方 “中文 英语 俄语、 同 左 
图 书馆 译 方法 式 、 分 享 至 社交 平台 与 邮件 法 语 .西班牙 语 、 
阿拉 伯 语 ,葡萄牙 
语 (7 种 ) 
ICDLtaal 文献 翻 ”机 器 翻译 、 简单 检索 高级。 调整 检索 范围 英语 .俄语 法语、 中文 .英语 .俄语 ,法语 、 西 
译 方法 。 人工 翻译 “检索 5 班 牙 语 蒙古 语 “” 班 牙 语 .阿拉 伯 语 .波斯 语 
(5 种 ) 等 (18 种 ) 
Europeanal 33] 文献 翻 ” 机 器 翻译 、 简单 检索 调整 检索 范围 .选择 结果 显示 方 ” 英语、 俄语 ,法语 、 同 左 
译 方法 。 基于 语 式 .分 享 至 社交 平台 与 邮件 qf 牙 语 . 保 加 利 
境 词 表 亚 语 .加 泰 罗 尼 亚 
语 . 捷 克 语 等 (26 
种 ) 
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4.2.1 跨 语 言 检索 方法 

所 调查 的 平台 中 ,7 个 平台 采用 文献 翻译 方法 , 占 
比 为 64% ,分 别 是 OECD iLibrary ,TMF eLibrary 、 丝 路 科 
技 知 识 服 务 系统 、 石 油 石化 大 数据 知识 服务 平台 、 
WDL ICDL、Europeana。 其 中 ,IMF eLibrary 、WDL 、 Eu- 
ropeana ICDL 采用 翻译 待 检索 文献 元 数据 的 方法 , 方 
便 用 户 了 解 每 条 资源 的 基本 信息 ,并 可 采用 对 应 语言 


4.2.4 检索 结果 的 呈现 

对 检索 结果 进行 排序 和 范围 调整 是 检索 平台 的 基 
本 功能 。 所 调查 的 平台 中 ,有 9 个 平台 文 持 通 过 “ 语 
言 “ 国 别 “ 资 源 类 型 “著者 "等 维度 调整 检索 范围 ， 
占 比 为 82% ,分 别 是 OECD iLibrary 、IMF eLibrary 、AI- 
patent 、WorldWideScience 、 丝 路 科技 知识 服务 系统 、 石 


念 索 出 相关 资源 ,尤其 是 WDL、Europeana、ICDL 数字 
图 书馆 多 为 非 文 本 馆藏 , 仅 需 提供 馆藏 元 数据 描述 及 
其 翻译 ;OECD iLibrary 数据 库 资源 多 为 统计 数据 和 分 
析 报 告 ,翻译 工作 量 小 ,发 布 语言 版 本 多 ,并 直接 提供 
部 分 文献 全 文 的 多 语言 翻译 版 本 。 搜 索引 擎 待 检索 资 
源 主要 是 网 络 资源 ,资源 数量 多 有 旦 类 型 丰富 ,所 以 选择 
机 目前 最 经 济 ` 工 作 量 最 小 的 提问 式 翻 译 方法 ,有 4 个 


平 容 采 用 提问 式 翻译 方法 , 占 比 为 36% ,分 别 是 AL 
pt 、WorldWideScience 、2lingual Google Search .搜狗 
海外 搜索 。 

跨 语 言 翻译 实现 方法 

< 二 目前 跨 语 言 翻 译 实现 方法 主要 是 机 器 翻译 。 所 调 
取 平 台 均 采 用 机 器 翻译 方法 ,机 器 翻译 速度 远 胜 于 
八 5 翻 译 ,但 错误 率 仍 较 高 。 为 提升 机 器 翻译 在 具体 
应 用 场景 的 准确 率 ,特别 是 商业 合同 ,法 律 条 文 . 专 利 
区 褒 等 资源 的 翻译 ,Alpatent 和 搜狗 海外 搜索 采用 了 神 


油 石化 大 数据 知识 服务 平台 、WDL、1ICDL、 Europeana。 
有 5 个 平台 支持 按照 “相关 度 ”“ 发表 时 间 ” 等 维度 对 
检索 结果 进行 排序 , 占 比 为 44% ,分 别 是 OECD iLi- 
brary .IMF eLibrary .WorldWideScience 、 丝 路 科技 知识 服 
务 系统 .石油 石化 大 数据 知识 服务 平台 。 有 3 个 平台 
支持 二 次 检索 ,缩小 检索 范围 , 占 比 为 27% ,分 别 是 
IMF eLibrary 、Alpatent .石油 石化 大 数据 知识 服务 平台 。 
所 调查 的 平台 中 有 2 个 可 对 检索 结果 进行 可 视 
化 , 占 比 为 18% ,分 别 是 WorldWideScience 和 石油 石化 
大 数据 知识 服务 平台 。WorldWideScience 可 对 检索 结 
果 的 主题 聚 类 结果 进行 可 视 化 ,深层 揭示 该 检索 结 且 
下 各 主题 的 共 现 频次 与 分 布 规律 。 石 油 石 化 大 数据 知 
识 服 务 平台 能 从 发 文 量 .关键 词 学科、 研究 层次 ,文献 
来 源 . 机 构 、 作 者 、 基 金 等 维度 对 选 定 检索 结果 进行 计 
量 可 视 化 分 析 。 
4.2.5 界面 与 检索 支持 的 语种 
多 语言 界面 包括 多 语言 的 导航 栏 按钮、 列表 、 弹 
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经 网 络 机 器 翻译 技术 ,石油 石化 大 数据 知识 服务 平台 
称 人 EDL 采用 人 工 辅助 翻译 的 方法 ,Europeana 采用 了 
基 尝 语 境 词 表 的 翻译 方法 。 其 中 ICDL 面向 世界 各 国 
上 儿童 用 户 ,对 翻译 的 准确 性 流畅 性 和 趣味 性 要 求 较 
高 C 具 资源 主要 为 面向 儿童 的 绘本 类 书籍 ,翻译 工作 量 
\, 因 此 设置 了 专门 的 翻译 志愿 小 组 进行 人 工 辅助 翻 
对 ,负责 翻译 网 站 界面 .基本 书目 信息 .摘要 和 整 本 书 
籍 ,并 由 审核 志愿 小 组 进行 校对 。 
4.2.3 ”检索 功能 的 设置 

所 调查 的 平台 均 设 置 简单 检索 功能 ,有 7 个 平台 
提供 高 级 检索 功能 , 占 比 为 64% ,分 别 是 OECD iLi- 
brary TIMF eLibrary .Alpatent .WorldWideScience 、 丝 路 科 
技 知识 服务 系统 .石油 石化 大 数据 知识 服务 平台 IC- 
DL, 且 提供 了 检索 功能 使 用 指南 ,方便 用 户 进行 限定 
字段 检索 ,或 使 用 逻辑 算 符 ,位 置 算 符 和 截 词 符 进行 组 
配 检 索 。AIpatent 还 提供 概念 检索 功能 ,方便 用 户 自主 
检索 专利 信息 ,用 户 可 在 概念 检索 编辑 框 输入 发 明 专 
利 技术 交底 书 或 专利 全 文 ,系统 进行 机 器 翻译 和 关键 
词 提取 ;用 户 还 可 对 关键 词 进行 调整 ,进行 二 次 检索 ， 
快速 检索 到 符合 用 户 需求 的 专利 信息 。 


Cs 


< 


窗 等 重要 页 面 组 件 。 各 跨 语言 检索 平台 面向 不 同 母 语 
背景 用 户 的 需求 ,提供 多 语言 界面 ,用 户 可 直接 在 网 站 
主页 切换 界面 语种 。 在 调查 的 平台 中 ,有 7 个 平台 文 
持 超过 1 种 语种 的 界面 , 占 比 为 64% , 分别 是 OECD 
iLibrary .IMF eLibrary、Alpatent 、 丝 路 科技 知识 服务 系 
统 石油 石化 大 数据 知识 服务 平台 、WDL ICDL 和 Eu- 
ropeana。 其 中 Europeana 的 主要 功能 是 向 欧洲 大 众 传 
播 欧洲 历史 文化 和 科学 知识 ,其 界面 语种 版 本 覆盖 欧 
洲 大 多 数 国家 语种 ;AIpatent 整合 的 专利 资源 主要 是 日 
本 美国 以 及 中 国 的 官方 专利 数据 库 , 其 提供 的 界面 语 
种 版 本 是 日 语 .英语 和 中 文 。 

在 跨 语言 检索 方面 ,9 个 平台 文 持 不 少 于 3 种 语 
种 进行 检索 , 占 比 为 82% ,分 别 是 OECD iLibrary 、IMF 
eLibrary 、Alpatent、WorldWideScience 、 缘 路 科技 知识 服 
务 系统 .2lingual Google Search、WDL、ICDL 和 Europe- 
ana。 各 平台 检索 文 持 语种 主要 集中 在 常用 语种 ,如 中 
文 .英语 .俄语 法语、 西班牙 语 、 阿 拉 伯 语 . 日 语 、 菠 萄 
牙 语 等 。 其 中 2lingual Google Search 作为 国际 路 语言 
搜索 引擎 ,不 断 增加 其 检索 支持 语种 ,2004 年 发 布 平 
人 台 原 型 时 仅 支 持 11 种 检索 语种 ,目前 已 支持 37 种 检 
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司 莉 , 周 更 .“ 一 带 一 路 ”多 语种 共享 型 数据 库 的 跨 语言 检索 功 
2 
索 语种 。 供 多 语言 元 数据 描述 资源 ,有 助 于 "一带 一 路 ”沿线 国 


以 上 典型 的 跨 语言 检索 平台 主要 采用 元 数据 层面 
的 文献 翻译 方法 和 提问 式 翻 译 方法 ; 跨 语 言 翻译 实现 
方法 主要 使 用 机 器 翻译 方法 ,尤其 是 神经 网 络 机 器 翻 
译 技术 实现 路 语言 翻译 ;平台 提供 简单 检索 和 高 级 检 
索 功 能 ;能 对 检索 结果 进行 排序 和 范围 调整 ,并 使 用 可 
视 化 技术 呈现 检索 结果 ;其 界面 与 检索 支持 常用 语种 ， 
并 不 断 扩 展 。 


5 “一 囊 一 路 ”多 语种 共享 型 数据 库 的 跨 
语言 检索 功能 开发 策略 


“一 带 一 路 "多 语种 共享 型 数据 库 是 一 个 多 主体 
参与 .多 源 异 构 资源 归 集 、 多 语种 覆盖 的 共享 型 数据 
库 s 以 上 调查 结果 能 为 "一带 一 路 "多 语种 共享 型 数 
据 名 的 跨 语言 检索 功能 设计 与 开发 提供 参考 ,具体 如 
人 下- 
5KD 采用 基于 神经 网 络 机 器 翻译 的 提问 式 - 文献 翻 
马 在 翻译 方法 上 ,一 带 一 路 "多 语种 共享 型 数据 库 
本 和 伯 鉴 现 有 跨 语言 检索 平台 的 文献 翻译 方法 和 提问 式 
栈 洋 方法 ,采用 两 者 结合 的 提问 式 - 文献 翻译 方法 。 
首尾 源 语 言 的 提问 式 翻译 成 与 待 检索 文献 一 致 的 源 
语 坦 形式 ,进行 单 语言 检索 ,然后 将 检索 结果 全 部 或 部 
;翻译 成 由 源 语言 描述 的 信息 ,该 方法 是 目前 实现 跨 
语 银 检索 比较 理想 的 方法 ; 在 实现 技术 上 ,可 借鉴 
Gd 台 e 搜狗 海外 搜索 和 AIpatent, 采 用 以 神经 网 络 机 
器 翻译 为 主 的 机 器 翻译 技术 ,其 作为 人 工 智能 翻译 主 
流 授 术 ”" ,能 通过 训练 一 张 从 一 个 序列 映射 到 另 一 个 
序列 的 神经 网 络 ,输出 变 长 的 序列 , 相 比 于 其 他 机 器 一 
译 技术 ,在 翻译 .对话 和 文字 概括 方面 效率 较 高 ” ; 同 
时 ,神经 网 络 机 器 翻译 的 开源 工具 丰富 ,为 跨 语言 翻译 
系统 构建 和 自动 评价 提供 了 平台 基础 和 开发 规范 。 
“一 带 一 路 "多 语种 共享 型 数据 库 使 用 神经 网 络 机 器 
翻译 方法 ,可 应 用 更 先进 的 技术 训练 模型 ,优化 神经 网 
络 结构 ,提高 模型 的 表达 能 力 ,增加 神经 网 络 层 数 , 进 
一 步 提 升 翻译 质量 和 效率 。 

文献 翻译 方法 可 选择 对 结果 文本 的 元 数据 ` 前 两 
行 文摘 或 文本 中 重要 的 词语 进行 翻译 。“ 一 带 一 路 " 
多 语种 共享 型 数据 库 资源 类 型 丰富 ,尤其 是 手稿 .历史 
资料 .视频 .图片 ,照片 .地 图 .录音 等 仅 具有 条 目的 非 
文本 馆藏 ,可 借鉴 中 国 台湾 数字 博物 馆 的 跨 语言 信息 
检索 实现 策略 ”1 ,通过 对 资源 的 元 数据 进行 翻译 , 提 


家 不 同 母 语 背景 的 用 户 发 现 . 识 别 . 评 价 . 选 择 和 使 用 
资源 ,实现 资源 的 整合 .共享 ,管理 和 长 期 保存 。 该 方 
法 充分 利用 了 提问 式 翻 译 和 文献 翻译 等 优点 , 既 简 化 
翻译 流程 ,降低 用 户 的 翻译 成 本 ,又 提高 了 检索 服务 的 
质量 。 

S$.2 实现 多 种 检索 功能 

已 建 “ 一 带 一 路 ”数据库 多 具备 简单 检索 和 高 级 
检索 功能 ,但 极 少 提供 专家 检索 功能 。“ 一 带 一 路 "多 
语种 共享 型 数据 库 应 满足 政府 用 户 、 企 业 用 户 、 科 研 用 
户 等 不 同 专业 水 平 用 户 的 检索 需求 ,提供 简单 检索 、 高 
级 检索 和 专家 检索 功能 ,并 制作 数据 库 检 索 指 南 文件 
或 在 导航 栏 设 立 独 立 帮 助 中 心 栏目 。 在 每 个 页 面 提供 
简单 检索 的 一 站 式 检索 入 口 ,用 户 可 使 用 其 统一 检索 
入 口 检索 数据 库 的 异 构 资源 ;用 户 输入 检索 式 后 , 需 选 
择 使 用 的 源 语 言 或 平台 能 自动 识别 用 户 使 用 的 源 语 
言 。 在 简单 检索 框 劳 应 设 有 高 级 检索 功能 的 链接 ,使 
日 户 能 自由 切换 ,设置 高 级 检索 功能 为 用 户 跨 语言 检 
索 提供 多 种 元 数据 的 组 合 ,提高 蜂 语 言 检 索 查 准 率 。 
设置 专家 检索 ,是 因 其 功能 强大 ,用 户 能 通过 构建 布尔 
逻辑 表达 式 进行 检索 提问 ,对 检索 结果 有 更 准确 的 定 
向 和 控制 作用 , 跨 语言 的 专家 检索 方便 用 户 使 用 自己 
熟悉 的 语言 构造 检索 式 , 从 而 提高 检索 效率 。 

5.3 ”应 用 可 视 化 技术 呈现 检索 结果 

可 视 化 技术 使 检索 过 程 更 透明 化 ,对 检索 结果 进 
行 形象 生动 的 .有 意义 的 分 类 组 织 , 可 建立 有 效 的 用 户 
反馈 机 制 和 交互 机 制 。“ 一 带 一 路 ”多 语种 共享 型 数 
据 库 需 通过 可 视 化 手段 ,展现 多 国 别 .多 类 型 多 语种 
资源 的 关联 关系 和 发 展 逻 辑 ,满足 用 户 深层 次 .个 性 化 
的 信息 需求 。 

可 对 “一 带 一 路 "多 语种 共享 型 数据 库 检索 结果 
进行 可 视 化 ,通过 统计 、 聚 类 关联 分 析 等 手段 分 析 处 
理 检索 结果 数据 集合 ,并 将 检索 结果 集合 转换 为 二 维 
或 三 维 图 形 ,采用 直观 的 交互 式 ,动态 可 视 化 方式 揭示 
多 语种 信息 资源 ,可 加 大 用 户 对 信息 的 认 知 度 , 加 强 系 
统 的 亲 和 度 ,有 利于 帮助 用 户 快速 理解 外 语 资源 ,揭示 
言 息 资 源 的 内 在 联系 和 深层 含义 。 可 借鉴 周 笑 胡 和 魏 
大 威 梳理 的 演进 描述 可 视 化 方法 完善 检索 结果 浏览 功 
能 ,在 时 间 线 和 地 图 上 对 “一 带 一 路 ”信息 资源 实现 时 
室 维 度 的 叙事 可 视 化 ” 。 可 参考 孙 倩 . 孙 两 生 、 阮 光 
册 、 印 均 平等 梳理 的 信息 可 视 化 关键 技术 完善 检索 结 
果 分 析 功 能 ”“ ,提供 合适 的 视图 形式 和 层次 结构 ， 
对 全 部 或 批量 检索 结果 进行 可 视 化 分 析 , 帮 助 用 户 快 
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速 掌握 检索 结果 的 发 文 量 、 发 文 时 间 、 作 者 、 主 题 ,其 
刊 .语种 .资源 类 型 等 维度 的 分 布 情况 ,深入 揭示 文献 
知识 结构 ,方便 用 户 选择 浏览 。 此 外 ,检索 过 程 可 视 化 
可 以 应 用 动态 可 视 化 检索 与 过 滤 技 术 , 帮 助 用 户 在 与 
检索 系统 交互 时 ,能 以 可 视 的 方式 执行 并 跟踪 检索 步 
又 ,系统 实时 提供 信息 反馈 ,支持 检索 策略 控制 ,可 减 
少 用 户 跨 语言 检索 的 记忆 负担 。 
5.4 ”提供 多 语言 界面 和 资源 

提供 多 语言 界面 能 使 用 户 更 好 地 适应 多 语言 环 
境 。 考 虑 广泛 适用 性 ,“ 一 带 一 路 ”多 语种 共享 型 数据 
库 可 先 支持 常用 语种 的 界面 版 本 ,如 中 文 英语. 俄语 、 
法 语 .西班牙 语 、 阿 拉 伯 语 ,再 选择 性 地 扩展 更 小 众 的 
语种 界面 版 本 ;或 能 根据 用 户 IP 地 址 识别 用 户 所 在 地 
的 能 用 语言 ,自动 转换 数据 库 网 站 的 语言 界面 ,以 符合 
用 请 的 使 用 习惯 ;将 具有 不 同 区 域 和 国家 特点 的 内 容 
ee 
当 台 便 用 过 程 中 可 能 存在 的 理解 层 义 ,并 保持 文化 
电 细 性 。“ 一 带 一 路 "多 语种 共享 型 数据 库 实 现 多 语 
高 绎 面 应 该 维持 一 个 源 程序 版 本 ,易于 修改 .维护 和 逢 
组 不 同 语言 版 本 的 网 页 之 间 在 结构 和 业务 逻辑 上 保 


pm 


控 小 , 即 不 同 语言 版 本 网 页 之 间 的 差异 都 集中 在 UI 
,| 


属 。9 ,在 加 入 新 的 语言 版 本 时 无 需 重新 编译 ,可 方便 
增 让 展 新 语言 。 


.过 对 于 已 有 的 “一 带 一 路 "多 语言 资源 ,如 政府 文 
信 绽 计数 据 , 调 查 报告 .多 个 语言 版 本 的 书籍 等 , 需 将 
资 沽 的 所 有 语言 版 本 收录 完整 ,在 检索 结果 详情 页 中 
予 蒋 提供 ,以 便 用 户 直 接 选择 所 需 语言 版 本 进行 下 载 。 
对 团 翻 译 工作 量 小 的 网 站 说 明 在 线 展 览 介绍 和 信息 
资源 项 ,可 利用 机 器 翻译 系统 和 人 工 辅助 校对 进行 全 
文 翻译 ,省 去 用 户 自己 选择 机 器 翻译 系统 进行 翻译 的 
步 又 ,综合 考虑 所 需 的 成 本 和 翻译 准确 率 ,可 仅 提供 中 
文英 语 等 常用 语言 的 资源 版 本 ,减少 语言 隔 闵 ,推动 
“一 带 一 路 ”数据 库 “ 走 出 去 ”。 

如 何 实现 跨 语 言 检 索 是 “一 带 一 路 ”多 语种 共享 
型 数据 库 和 平台 建设 亟待 解决 的 重要 课题 。 笔 者 调查 
了 已 建 “一 带 一 路 "数据 库 的 检索 功能 设置 ,分 析 “ 一 
带 一 路 "多 语种 共享 型 数据 库 检 索 功 能 需求 ,并 对 11 
个 典型 跨 语言 检索 平台 进行 调研 ,归纳 跨 语言 检索 方 
法 , 跨 语 言 翻译 实现 方法 ,检索 功能 设置 .检索 结果 呈 
现 . 界 面 与 检索 支持 语种 6 个 方面 的 特点 ,借鉴 典型 跨 
语言 检索 平台 的 优秀 建设 经 验 ,为 “一 带 一 路 "多 语种 
共享 型 数据 库 建设 的 跨 语言 检索 功能 设计 与 开发 提出 
对 策 : 应 采用 基于 神经 网 络 机 器 翻译 的 提问 式 -文献 


翻译 方法 ,实现 多 种 检索 功能 ,应 用 可 视 化 技术 呈现 检 
索 结 果 ,提供 多 语言 界面 和 资源 。 本 文 为 “一带 一 路 ” 
多 语种 共享 型 数据 库 建设 提供 了 理论 参考 ,以 期 为 “一 
带 一 路 ”沿线 国家 信息 资源 建设 和 整合 提供 载体 支撑 
和 技术 保障 ,为 “一 带 一 路 ”沿线 国家 的 相关 学 术 人 研究 
提供 全 面 的 多 语言 信息 服务 。 
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Absiract: | Purpose/ significance | To realize the effective use of “the Belt and Road” multilingual shared data- 


base resources, the problem of cross-language retrieval should be solved. Based on the survey results of “ the Belt and 


Road” database retrieval function, “the Belt and Road” multilingual shared database’ s retrieval function demand is 


analyzed. From the perspective of researching on the cross-language retrieval platform, reference for cross-language 


retrieval function design and development of “the Belt and Road” multilingual shared database can be provided. 


| Method/ process | Through literature and network survey, 11 typical cross-language retrieval platforms at home and 


abroad were selected. Analysis was carried out from five aspects: cross-language retrieval method, cross-language 


translation implementation method, retrieval function, retrieval results, interface and retrieval support language. 


Then concluded their implementation ways. | Result/conclusion | Based on this, strategies are proposed for the 


cross-language retrieval function design and development of “the Belt and Road” multilingual shared database: adop- 


ting question-document translation method based on neural machine translation, implementing multiple retrieval func- 


tions, visualization technology used to present retrieval results, providing multi-language interface and resources. 
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